从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述 过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 范式 llm rl agentic 范式综述 2025-09-08 18:30 6